# -*-coding:utf-8 -*-
'虎牙视频爬取'

import requests
from lxml import etree

url = "https://www.huya.com/g"
# https://www.huya.com/l  全部直播，
# 接口https://www.huya.com/cache.php?m=LiveList&do=getLiveListByPage&tagAll=0&callback=getLiveListJsonpCallback&page=2
# 新的sql语句：insert into t_user(id,name,phone,email,password) values (REPLACE(UUID(),'-','') ,'123','123','123','123');

# 第二步，爬虫的函数
def getPageInfo():
    # response变量，接收url的响应
    response = requests.get(url=url)
    # 设置响应编码
    response.encoding = 'utf-8'
    # 使用etree.HTML解析响应内容
    tree = etree.HTML(response.text)
    # 获取到页面中ul标签（其中，ul的class为rank-list）中的所有li标签
    list = tree.xpath("//div[@class='box-bd']/ul/li")
    for li in list:
        # 第二个div标签里面的，第二个div标签，里面的a标签，里面的文本
        title = li.xpath("./a/p/text()")
        imgsrc = li.xpath("./a/img/@src")[0]
        # /a/@href  获取a标签里面的地址。同理，获取img中的src也是一样
        result = ''
        if len(title) > 0:
            # strip移除前后空格（此处不加也可以
            result = result + title[0].strip() + "imgsrc= " +imgsrc + '\n'
        print(result)


if __name__ == '__main__':
    getPageInfo()
